home *** CD-ROM | disk | FTP | other *** search
/ CU Amiga Super CD-ROM 19 / CU Amiga Magazine's Super CD-ROM 19 (1998)(EMAP Images)(GB)[!][issue 1998-02].iso / CUCD / Online / RFCs / rfc / rfc1922.txt < prev    next >
Text File  |  1996-03-25  |  51KB  |  1,516 lines

  1.  
  2.  
  3.  
  4.  
  5.  
  6.  
  7. Network Working Group                                            HF. Zhu
  8. Request for Comments: 1922                                    Tsinghua U
  9. Category: Informational                                           DY. Hu
  10.                                                               Tsinghua U
  11.                                                                 ZG. Wang
  12.                                                                     CITS
  13.                                                                  TC. Kao
  14.                                                                      III
  15.                                                               WCH. Chang
  16.                                                                      III
  17.                                                               M. Crispin
  18.                                                             U Washington
  19.                                                               March 1996
  20.  
  21.  
  22.             Chinese Character Encoding for Internet Messages
  23.  
  24. Status of this Memo
  25.  
  26.    This memo provides information for the Internet community.  It does
  27.    not specify an Internet standard.  Distribution of this memo is
  28.    unlimited.
  29.  
  30. Abstract
  31.  
  32.    This memo describes methods of transporting Chinese characters in
  33.    Internet services which transport text, such as electronic mail
  34.    [RFC-822], network news [RFC-1036], telnet [RFC-854] and the World
  35.    Wide Web [RFC-1866].
  36.  
  37. Introduction
  38.  
  39.    As the use of Internet covers more and more Chinese people in the
  40.    world, the need has increased for the ability to send documents
  41.    containing Chinese characters on the Internet.  The methods described
  42.    in this document provide means of transporting existing Chinese
  43.    character sets as well as leaving space for future extension.
  44.  
  45.    This document describes two encodings, ISO-2022-CN and
  46.    ISO-2022-CN-EXT.  These are designed with interoperability in mind
  47.    and are encouraged in this document for current Chinese interchange;
  48.    they are 7-bit, support both simplified and traditional characters
  49.    using both GB and CNS/Big5, and do not impose any unusual quoting
  50.    requirements on ASCII characters.
  51.  
  52.    As important related issues, this document gives detailed
  53.    descriptions of the two encodings CN-GB and CN-Big5, and a brief
  54.    description of ISO/IEC 10646 [ISO-10646].  CN-GB and CN-Big5 are
  55.  
  56.  
  57.  
  58. Zhu, et al                   Informational                      [Page 1]
  59.  
  60. RFC 1922               Chinese Character Encoding             March 1996
  61.  
  62.  
  63.    currently used as the internal codes for Chinese documents.
  64.    ISO-10646 is the universal multi-octet character set defined by ISO;
  65.    we feel that in the future it may become the preferred technology for
  66.    Chinese documents and electronic mail when it is widely available.
  67.  
  68. Specification
  69.  
  70. 1.    7-bit Chinese encodings: ISO-2022-CN and ISO-2022-CN-EXT
  71.  
  72. 1.1.  Description
  73.  
  74.    ISO-2022-CN is based on ISO 2022 [ISO-2022], similar to earlier work
  75.    on ISO-2022-JP [RFC-1468] and ISO-2022-KR [RFC-1557] for the Japanese
  76.    and Korean languages respectively.  It is 7-bit, and supports both
  77.    simplified Chinese characters using GB 2312-80 [GB-2312] and
  78.    traditional Chinese characters using the first two planes of CNS
  79.    11643 [CNS-11643], as well as ASCII [ASCII] characters.
  80.  
  81.    ISO-2022-CN-EXT is a superset of ISO-2022-CN that additionally
  82.    supports other GB character sets and planes of CNS 11643.
  83.  
  84.    Since ISO-2022-CN and ISO-2022-CN-EXT are 7-bit encodings, they do
  85.    not require the 8-bit SMTP extensions.  ISO-2022-CN supports all the
  86.    Chinese characters that appear in Big5 [BIG5].
  87.  
  88. 1.2.  ISO-2022-CN
  89.  
  90.    The starting code of ISO-2022-CN is ASCII.  ASCII and Chinese
  91.    characters are distinguished by designations (ESC sequences) and
  92.    shift functions.
  93.  
  94.    Designations define the Chinese character sets used in the text.
  95.    There are three kinds of designations: SOdesignation, SS2designation
  96.    and SS3designation.
  97.  
  98.    The SOdesignation is in the form ESC $ ) <F>, where <F> is the "final
  99.    character" assigned to the character set by ISO (refer to the ISO
  100.    registry [ISOREG] for more details).  The SS2designation is in the
  101.    form ESC $ * <F>, and the SS3designation is in the form ESC $ + <F>.
  102.    A designation overrides any previous designation for subsequent bytes
  103.    in the text.
  104.  
  105.    There are four kinds of shifts: SI, SO, SS2 and SS3.  Shift functions
  106.    specify how to interpret the subsequent bytes.
  107.  
  108.    The shift SI (one byte with hexadecimal value 0F) declares that
  109.    subsequent bytes are interpreted in ASCII.
  110.  
  111.  
  112.  
  113.  
  114. Zhu, et al                   Informational                      [Page 2]
  115.  
  116. RFC 1922               Chinese Character Encoding             March 1996
  117.  
  118.  
  119.    The shift SO (one byte with hexadecimal value 0E) declares that
  120.    subsequent bytes are interpreted in the character set defined by
  121.    SOdesignation.
  122.  
  123.    The shift SS2 (two bytes with hexadecimal values 1B 4E) declares that
  124.    the subsequent TWO bytes are interpreted in the character set defined
  125.    by SS2designation, after which the previous interpretation (from SI
  126.    or SO) is restored.
  127.  
  128.    The shift SS3 (two bytes with hexadecimal values 1B 4F) declares that
  129.    the subsequent TWO bytes are interpreted in the character set defined
  130.    by SS3designation, after which the previous interpretation (from SI
  131.    or SO) is restored.
  132.  
  133.    The escape sequences, shift functions and character sets used in an
  134.    ISO-2022-CN text are as follows:
  135.  
  136.     Character sets                                       Shift in with
  137.    --------------------------------------------------------------------
  138.      ASCII                                                     SI
  139.      GB 2312, CNS 11643-plane-1                                SO
  140.               CNS 11643-plane-2                                SS2
  141.  
  142.       ESC $ ) A         Indicates the bytes following SO are Chinese
  143.                         characters as defined in GB 2312-80, until
  144.                         another SOdesignation appears
  145.  
  146.       ESC $ ) G         Indicates the bytes following SO are as defined
  147.                         in CNS 11643-plane-1, until another
  148.                         SOdesignation appears
  149.  
  150.       ESC $ * H         Indicates the two bytes immediately following
  151.                         SS2 is a Chinese character as defined in CNS
  152.                         11643-plane-2, until another SS2designation
  153.                         appears
  154.  
  155.    If there are any GB or CNS characters on a line, a designation for
  156.    the corresponding character set must be used so that each line has
  157.    its own character set information and the text can be displayed
  158.    correctly when scroll back in a window.  Also, there must be a shift
  159.    to ASCII (SI) before the end of the line (i.e., before the CRLF).  In
  160.    other words, each line starts in ASCII, and ends in ASCII.
  161.  
  162.       Example: the hex sequence
  163.  
  164.          1b 24 29 41 0e 3d 3b 3b 3b 1b 24 29 47 47 28 5f 50 0f
  165.  
  166.       represents the Chinese word for "Interchange" (jiao huan) twice;
  167.  
  168.  
  169.  
  170. Zhu, et al                   Informational                      [Page 3]
  171.  
  172. RFC 1922               Chinese Character Encoding             March 1996
  173.  
  174.  
  175.       the first time in simplified form using GB-2312 (the 3d 3b 3b 3b
  176.       sequence above), and the second time in traditional form using
  177.       CNS-11643 (the 47 28 5f 50 sequence above).  The sequence 1b 24 29
  178.       41 is the SOdesignation for GB-2312, the 0e is SO to switch to
  179.       Chinese from ASCII, the 1b 24 29 47 is the SOdesignation for
  180.       CNS-11643 plane 1, and finally the 0f is the SI to return to ASCII
  181.       at the end of the line.
  182.  
  183.    The name given to this character encoding is "ISO-2022-CN". This name
  184.    is intended to be used as the "charset" parameter in MIME [MIME-1,
  185.    MIME-2] messages.
  186.  
  187.       Content-Type: text/plain; charset=iso-2022-cn
  188.  
  189.    The ISO-2022-CN encoding is already in 7-bit form, so it is not
  190.    necessary to use a Content-Transfer-Encoding header.
  191.  
  192.    Other restrictions are given in the "Formal Syntax of ISO-2022-CN"
  193.    (Section 7.1 of this document).
  194.  
  195. 1.3.  ISO-2022-CN-EXT
  196.  
  197.    ISO-2022-CN-EXT supports all characters in existing GB, Big5 and CNS
  198.    11643 character sets.
  199.  
  200.    The escape sequences, shift functions and character sets used in an
  201.    ISO-2022-CN-EXT text are as follows:
  202.  
  203.     Character sets                                       Shift in with
  204.    --------------------------------------------------------------------
  205.      ASCII                                                    SI
  206.      GB 2312, GB 12345, CNS 11643-plane-1, ISO-IR-165         SO
  207.      GB 7589, GB 13131, CNS 11643-plane-2                     SS2
  208.      GB 7590, GB 13132 or other new GBs,CNS 11643-plane-3 or  SS3
  209.       higher planes of CNS 11643
  210.  
  211.       Note: Currently, there are some GB sets that have not been
  212.       registered in ISO. Here <X7589>, <X7590>, <X12345>, <X13131> and
  213.       <X13132> represent the final character that will be assigned by
  214.       ISO for those sets.  These GB sets shall only be used once these
  215.       final characters are assigned.
  216.  
  217.  
  218.  
  219.  
  220.  
  221.  
  222.  
  223.  
  224.  
  225.  
  226. Zhu, et al                   Informational                      [Page 4]
  227.  
  228. RFC 1922               Chinese Character Encoding             March 1996
  229.  
  230.  
  231.       ESC $ ) A         Indicates the bytes following SO are Chinese
  232.                         characters as defined in GB 2312-80, until
  233.                         another SOdesignation appears
  234.  
  235.       ESC $ * <X7589>   Indicates the two bytes immediately following
  236.                         SS2 is a Chinese character as defined in GB
  237.                         7589-87 [GB-7589], until another SS2designation
  238.                         appears
  239.  
  240.       ESC $ + <X7590>   Indicates the two bytes immediately following
  241.                         SS3 is a Chinese character as defined in GB
  242.                         7590-87 [GB-7590], until another SS3designation
  243.                         appears
  244.  
  245.       ESC $ ) <X12345>  Indicates the bytes following SO are as defined
  246.                         in GB 12345-90 [GB-12345], until another
  247.                         SOdesignation appears
  248.  
  249.       ESC $ * <X13131>  Indicates the two bytes immediately following
  250.                         SS2 is a Chinese character as defined in GB
  251.                         13131-91 [GB-13131], until another
  252.                         SS2designation appears
  253.  
  254.       ESC $ + <X13132>  Indicates the two bytes immediately following
  255.                         SS3 is a Chinese character as defined in GB
  256.                         13132-91 [GB-13131], until another
  257.                         SS3designation appears
  258.  
  259.       ESC $ ) E         Indicates the bytes following SO are as defined
  260.                         in ISO-IR-165 (for details, see section 2.1),
  261.                         until another SOdesignation appears
  262.  
  263.       ESC $ ) G         Indicates the bytes following SO are as defined
  264.                         in CNS 11643-plane-1, until another
  265.                         SOdesignation appears
  266.  
  267.       ESC $ * H         Indicates the two bytes immediately following
  268.                         SS2 is a Chinese character as defined in CNS
  269.                         11643-plane-2, until another SS2designation
  270.                         appears
  271.  
  272.       ESC $ + I         Indicates the immediate two bytes following SS3
  273.                         is a Chinese character as defined in CNS
  274.                         11643-plane-3, until another SS3designation
  275.                         appears
  276.  
  277.  
  278.  
  279.  
  280.  
  281.  
  282. Zhu, et al                   Informational                      [Page 5]
  283.  
  284. RFC 1922               Chinese Character Encoding             March 1996
  285.  
  286.  
  287.       ESC $ + J         Indicates the immediate two bytes following SS3
  288.                         is a Chinese character as defined in CNS
  289.                         11643-plane-4, until another SS3designation
  290.                         appears
  291.  
  292.       ESC $ + K         Indicates the immediate two bytes following SS3
  293.                         is a Chinese character as defined in CNS
  294.                         11643-plane-5, until another SS3designation
  295.                         appears
  296.  
  297.       ESC $ + L         Indicates the immediate two bytes following SS3
  298.                         is a Chinese character as defined in CNS
  299.                         11643-plane-6, until another SS3designation
  300.                         appears
  301.  
  302.       ESC $ + M         Indicates the immediate two bytes following SS3
  303.                         is a Chinese character as defined in CNS
  304.                         11643-plane-7, until another SS3designation
  305.                         appears
  306.  
  307.    As in ISO-2022-CN, each line starts in ASCII, and ends in ASCII, and
  308.    has its own designation information before any Chinese characters
  309.    appear.
  310.  
  311.    The name given to this character encoding is "ISO-2022-CN-EXT". This
  312.    name is intended to be used as the "charset" parameter in MIME
  313.    messages.
  314.  
  315.       Content-Type: text/plain; charset=ISO-2022-CN-EXT
  316.  
  317.    The ISO-2022-CN-EXT encoding is also in 7-bit form, so it is not
  318.    necessary to use a Content-Transfer-Encoding header.
  319.  
  320.    Other restrictions are given in the "Formal Syntax of
  321.    ISO-2022-CN-EXT" (Section 7.2 of this document).
  322.  
  323. 1.4.  How to Support Big5 or other internal codesets with ISO-2022-CN
  324.       and ISO-2022-CN-EXT
  325.  
  326.    Since there are many different Chinese internal coding systems
  327.    [CJKINF], such as EUC GB, Big5, CCCII (an encoding for library
  328.    systems mainly used in Taiwan), GBK (the new standard specification
  329.    for Chinese internal code, also is the codepage for Microsoft
  330.    simplified Chinese Windows 95) etc., ISO-2022-CN and ISO-2022-CN-EXT,
  331.    which are 7-bit and will not lose information during communication
  332.    among different codesets,  facilitate interchange between the various
  333.    Chinese coding systems in the Internet.
  334.  
  335.  
  336.  
  337.  
  338. Zhu, et al                   Informational                      [Page 6]
  339.  
  340. RFC 1922               Chinese Character Encoding             March 1996
  341.  
  342.  
  343.    For instance, ISO-2022-CN and ISO-2022-CN-EXT can be used to support
  344.    the popular Big5 codeset, because the first two planes of CNS-11643
  345.    contain the same Chinese characters as Big5's "common part" except
  346.    two duplicate characters.  By the "common part" we mean the part that
  347.    is not specific to any Big5 vendor, consisting of 5401 more
  348.    frequently used characters in Big5 range 0xA440-0xC67E, 7652 less
  349.    frequently used characters in Big5 range 0xC940-0xF9D5, and 441 other
  350.    symbols in Big5 range 0xA140-0xA3E0, as defined in Institute for
  351.    Information Industry's (III) technical report C-26 (see also [Big5]).
  352.    The appendix of this document presents a conversion table for
  353.    converting Big5 into CNS-11643, including specific extensions of some
  354.    popular vendors.  For other extensions, vendors and implementors of
  355.    Big5 products are ENCOURAGED to create detailed conversion tables, in
  356.    order to increase interoperability between different coding systems.
  357.  
  358.    Public domain software (binary or C source code) for conversion
  359.    between Big5 and CNS-11643 is available on many Internet sites.  At
  360.    the time of this writing, the following FTP sites and software are
  361.    advertised:
  362.  
  363.    1) Beijing:
  364.       ftp://ftp.net.tsinghua.edu.cn/pub/Chinese/convert/big5cns.zip
  365.       (IP address: 166.111.1.6)
  366.  
  367.    2) Xi'an:
  368.       ftp://ftp.xanet.edu.cn
  369.       /pub/chinese-soft/unix/convert/BeTTY-1.534.tar.gz
  370.       (IP address: 202.112.11.131)
  371.  
  372.    3) Taiwan:
  373.       ftp://ftp.seed.net.tw/Pub/Chinese/DOS/code-convert/chcode.zip
  374.       (IP address: 140.92.1.65)
  375.  
  376.    4) US:
  377.       ftp://ftp.ifcss.org/pub/software/unix/convert/BeTTY-1.534.tar.gz
  378.       (IP address: 128.123.1.55)
  379.  
  380.    5) Japan:
  381.       ftp://etlport.etl.go.jp/pub/iso-2022-cn/convert/big5cns.zip
  382.       (IP address: 192.31.197.99)
  383.  
  384.  
  385.  
  386.  
  387.  
  388.  
  389.  
  390.  
  391.  
  392.  
  393.  
  394. Zhu, et al                   Informational                      [Page 7]
  395.  
  396. RFC 1922               Chinese Character Encoding             March 1996
  397.  
  398.  
  399. 2.    8-bit Chinese encodings: CN-GB and CN-Big5
  400.  
  401.    The CN-GB and CN-Big5 MIME charsets are defined below.
  402.  
  403.       Note: the use of 8-bit character sets requires the use of either
  404.       an 8-to-7 Content-Transfer-Encoding mechanism such as "BASE64" or
  405.       "QUOTED-PRINTABLE" if the network is not 8-bit clean, or the 8-bit
  406.       SMTP extensions [SMTPEXT] with the "8BIT"
  407.       Content-Transfer-Encoding on 8-bit clean networks.  Otherwise, an
  408.       8-bit message that passes through a 7-bit mailer is likely to have
  409.       the 8th bit truncated, resulting in an unreadable message.
  410.       Although "just send 8-bit data" has been common practice in the
  411.       past, it is incorrect according to the Internet standards and
  412.       causes interoperability problems.
  413.  
  414. 2.1.  CN-GB
  415.  
  416.    E-mail using CN-GB characters is sent in this way:
  417.  
  418.    GB 2312-80 characters are used with ASCII characters, not GB 1988-89
  419.    [GB-1988].
  420.  
  421.    GB 2312-80 is also 7-bit, to avoid conflicting with ASCII.  If the
  422.    character is from GB 2312-80, the MSB (bit-8) of each byte is set to
  423.    1, and therefore becomes a 8-bit character.  Otherwise, the byte is
  424.    interpreted as ASCII.  This constructs a character set named "GB
  425.    Internal Code".
  426.  
  427.    This method is also adopted in the .gb files in the Internet.
  428.  
  429.    To use this character scheme with MIME, CN-GB is used as the value
  430.    for the charset parameter:
  431.  
  432.       Content-Type: text/plain; charset=cn-gb; charset-edition=1980
  433.  
  434.       Note: The "charset-edition" is a new MIME parameter described in
  435.       section 4.1 of the "Specification" part of this document.
  436.  
  437.    GB 12345-90 is the traditional form of GB 2312, the charset name
  438.    given to this set is CN-GB-12345 with the charset-edition of 1990.
  439.  
  440.    There are also character sets that can only be used with other GB
  441.    sets.  For example, GB 8565-88 [GB-8565] is used with GB 2312 and
  442.    some other characters to form the ISO-IR-165 set (also known as GB
  443.    2312 + GB 8565.2).  ISO-IR-165 contains all characters from GB
  444.    2312-80 as revised by GB 6345.1-86 and GB 8565.2-88.  Its MIME
  445.    charset name is CN-GB-ISOIR165 with the charset-edition of 1992.
  446.  
  447.  
  448.  
  449.  
  450. Zhu, et al                   Informational                      [Page 8]
  451.  
  452. RFC 1922               Chinese Character Encoding             March 1996
  453.  
  454.  
  455.    CN-GB-12345 and CN-GB-ISOIR165 support ASCII in a similar manner to
  456.    CN-GB; the MSB of Chinese characters is set to 1 to distinguish from
  457.    ASCII.
  458.  
  459.       Note: There are some supplementary character sets in GB, i.e.  GB
  460.       7589-87, GB 7590-87, GB 13131-91 and GB 13132-91.  Normally, they
  461.       won't be used independently without using GB-2312 or GB-12345, so
  462.       they are not necessarily to be registered.  Characters in these
  463.       standards could be supported with ISO-2022-CN and ISO-2022-CN-EXT.
  464.       If, in the future, they need to be used with "charset" names, it
  465.       is the responsibility of any interested third party (the
  466.       standardization organization or anybody else) to write the
  467.       necessary documents and register the charset with the IANA.  It is
  468.       encouraged that the charset names take the form of CN-GB-<number>,
  469.       such as CN-GB-12345, where <number> is the GB standard number.  A
  470.       charset-edition should also be given.  All CN-GB-<number> sets
  471.       should be coded in 8-bit in a similar fashion to CN-GB.
  472.  
  473.    To ensure interoperability, the CN-GB charset should be used whenever
  474.    possible instead of a CN-GB-<number> charset.
  475.  
  476. 2.2.  CN-Big5
  477.  
  478.    Big5 is a two-byte character set of traditional Chinese characters,
  479.    widely used in Taiwan and overseas.  E-mail of CN-Big5 is sent in
  480.    this way:
  481.  
  482.    Big5 is used with ASCII.  The MSB of ASCII characters is always 0.
  483.    The MSB of the first byte of a Big5 character is always 1; this
  484.    distinguishes it from an ASCII character.  The second byte has 8
  485.    significant bits.  Therefore, CN-Big5 is an 8-bit encoding with a
  486.    15-bit codespace.
  487.  
  488.    To use this character scheme with MIME, CN-Big5 is used as the value
  489.    for the charset parameter:
  490.  
  491.       Content-Type: text/plain; charset=cn-big5; charset-edition=1984
  492.  
  493.       Note: The "charset-edition" is a new MIME parameter described in
  494.       section 4.1 of the "Specification" part of this document.
  495.  
  496. 3.    Universal Multilingual Character Set:  ISO/IEC-10646/Unicode
  497.  
  498.    ISO/IEC 10646 defines a 32bit character space with the intent to
  499.    encode all characters in the world. Currently, only the lowest 16bit
  500.    plane of ISO 10646, the Basic Multilingual Plane (BMP), is defined.
  501.    The BMP is code-by-code identical to Unicode [Unicode 1.1].  it
  502.    contains a large repertoire of Chinese characters (it currently
  503.  
  504.  
  505.  
  506. Zhu, et al                   Informational                      [Page 9]
  507.  
  508. RFC 1922               Chinese Character Encoding             March 1996
  509.  
  510.  
  511.    includes all the characters of GB 2312-80, GB 12345-90, GB 8565-89,
  512.    CNS 11643's plane 1 and 2, and part of some other standards) and
  513.    therefore can be used to transport Chinese characters in the Internet
  514.    community.  This document does not give any details on how to do
  515.    this, as this has been done elsewhere.  For details of using Unicode
  516.    with MIME, refer to RFC 1641 [RFC-1641], RFC 1642 [RFC-1642].  For
  517.    assigned names for 10646 set, refer to STD 2--"Assigned Numbers",
  518.    which is RFC 1700 [RFC-1700] currently.  For more up-to-date assigned
  519.    numbers, please check:
  520.  
  521.       ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets
  522.  
  523. 4.   Two New MIME parameters
  524.  
  525.    Here we define two new MIME parameters to be used with "charset"
  526.    parameters.
  527.  
  528. 4.1.  "charset-edition"
  529.  
  530.    This parameter is used after the MIME "charset" parameter, using four
  531.    digits (AD) to indicate what the year of edition is for the character
  532.    set standard shown in "charset".  Its use is optional.
  533.    Implementations should ignore this parameter unless the
  534.    implementation has specific support for that particular character set
  535.    edition.
  536.  
  537.    The reason for defining this parameter is that there are often
  538.    differences in the defined characters between editions of a character
  539.    set standard.  Sometimes, the difference can not be ignored,
  540.    otherwise implementations would have problems when processing it.
  541.    There are only two ways to indicate this difference, in the current
  542.    MIME syntax.  One way is to indicate the edition in the charset name,
  543.    such as CN-GB-1988-80 (the 1980's edition of GB 1988).  The other way
  544.    is to define a new optional parameter such as "charset-edition".  The
  545.    latter way is better because receiving applications that can only
  546.    process an older edition can still recognize the character set and
  547.    offer to display the text in the older edition.  This display may
  548.    have a few mistakes, but it is better than refusing to display any
  549.    text at all or defaulting to an inappropriate character set such as
  550.    US-ASCII or ISO-8859-1.
  551.  
  552. 4.2.  "charset-extension"
  553.  
  554.    This parameter is also used after the MIME "charset" parameter.  It
  555.    is case-insensitive and optional, and any value of this parameter
  556.    should be registered in IANA.  Unregistered value should start with
  557.    "x-" as with any MIME extension-token.  Implementations should ignore
  558.    this parameter unless the implementation has specific support for
  559.  
  560.  
  561.  
  562. Zhu, et al                   Informational                     [Page 10]
  563.  
  564. RFC 1922               Chinese Character Encoding             March 1996
  565.  
  566.  
  567.    that particular character set extension.
  568.  
  569.    A character set extension has displayed glyphs for code points that
  570.    are not assigned in the character set, for example, vendor-specific
  571.    extensions of standard character sets.  This parameter provides the
  572.    option of using these extensions.  Although character set extensions
  573.    may cause interoperability problems, we recognize the existence of
  574.    such extensions.
  575.  
  576.    For example:
  577.       Content-Type: text/plain; charset=CN-Big5; charset-edition=1984;
  578.        charset-extension=ETen-2.00.03-DOS
  579.  
  580.    This may indicate Eten company's extension of Big5: ETen 2.00.03 for
  581.    DOS, assuming that "ETen-2.00.03-DOS" is registered with the IANA..
  582.  
  583. 4.3.  Formal Syntax:
  584.  
  585.    The following changes and additions are made to the MIME syntax:
  586.  
  587.    charset-edition   := "charset-edition" "=" 4DIGIT
  588.                          ; year of edition in four digits
  589.  
  590.    charset-extension := "charset-extension" "=" extension-token
  591.  
  592. 5.   Background Information
  593.  
  594. 5.1. Writing systems and their encodings in Chinese-speaking nations and
  595.      regions
  596.  
  597.    The mainland provinces of China use simplified Chinese character in
  598.    daily life.  GB is the standard electronic character set.  It is the
  599.    main means for communications between people who share simplified
  600.    Chinese characters in the world.
  601.  
  602.    Taiwan uses traditional Chinese characters in daily life.  CNS-11643
  603.    is the formal character set for information interchange in Taiwan;
  604.    however, Big5, a widely-used character set of traditional Chinese
  605.    characters, is the de-facto internal code standard in Taiwan.
  606.  
  607.    Hong Kong uses traditional Chinese characters in daily life, but uses
  608.    both GB and Big5 in electronic form, because Hong Kong people often
  609.    communicate with people in all of China's provinces.
  610.  
  611.    Singapore seldom uses Chinese characters, and uses the simplified
  612.    form when Chinese characters are used.  In electronic form, Unicode
  613.    is more popular, however GB is also used.
  614.  
  615.  
  616.  
  617.  
  618. Zhu, et al                   Informational                     [Page 11]
  619.  
  620. RFC 1922               Chinese Character Encoding             March 1996
  621.  
  622.  
  623. 5.2.  Miscellaneous information about Chinese character sets
  624.  
  625.    The GB 1988-89 character set is identical to ISO 646 [ISO-646] except
  626.    for currency symbol and tilde. The currency symbol and the tilde are
  627.    replaced by the Yuan sign and the overline.  This set is GB's variant
  628.    of ISO 646.  This character set and CNS 5205 [CNS-5205] are not
  629.    encouraged for use in the Internet, since ASCII combined with GB 2312
  630.    or CNS 11643-plane 1 and plane 2 contains all the characters in them.
  631.  
  632.    The GB 2312-80 character set consists of simplified Chinese
  633.    characters, digits, and the Latin, Greek and Russian alphabets, and
  634.    some other symbols; in all, 7445 characters.  Each character is
  635.    represented with two bytes.
  636.  
  637.    GB 13000-95 [GB-13000] is GB's variant of ISO 10646.  However, for
  638.    interoperability in the Internet, assigned names for ISO 10646 are
  639.    encouraged instead.
  640.  
  641.    Currently both sides of the Taiwan Straits are cooperating closely in
  642.    promoting the use of ISO 10646's BMP and in continuing its
  643.    development together with other organizations under ISO.
  644.  
  645. 5.3.  Miscellaneous implementation information
  646.  
  647.    For maximum interoperability, implementations SHOULD at least support
  648.    sending and receiving ISO-2022-CN.  Supporting all registered
  649.    character sets in ISO-2022-CN-EXT is greatly encouraged.
  650.  
  651.    To meet the current usage, support of CN-GB (the status quo for
  652.    simplified Chinese e-mail ) or CN-Big5 (the status quo for
  653.    traditional Chinese e-mail) may be necessary.  However, it is not
  654.    reliable to send documents directly with these internal codes,
  655.    therefore sending ISO-2022-CN message is always encouraged whenever
  656.    possible.
  657.  
  658.    To the maximum extent possible, implementations should be capable of
  659.    receiving messages in any of the encodings described in this
  660.    document, even if they only transmit messages in one form.
  661.  
  662.    Preferably the implementation should display the characters with
  663.    glyphs appropriate to the typographic tradition that is implied in
  664.    the encoding of the received text.  Implementation may also translate
  665.    these encodings to the encoding that its platform supports.
  666.  
  667.    The human user (not implementor) should try to keep lines within 80
  668.    display columns, or, preferably, within 75 (or so) columns, to allow
  669.    insertion of ">" at the beginning of each line in excerpts.  Each
  670.    Chinese character takes up two columns, and the shift sequences do
  671.  
  672.  
  673.  
  674. Zhu, et al                   Informational                     [Page 12]
  675.  
  676. RFC 1922               Chinese Character Encoding             March 1996
  677.  
  678.  
  679.    not take up any columns.  The implementor is reminded that Chinese
  680.    characters take up two bytes and should not be split in the middle to
  681.    break lines for displaying, etc.
  682.  
  683.    Freely available fonts of Chinese characters:
  684.  
  685.       Beijing:
  686.          ftp://ftp.net.tsinghua.edu.cn/pub/Chinese/fonts/
  687.  
  688.       Xi'an:
  689.          ftp://ftp.xanet.edu.cn/pub/chinese-soft/fonts/
  690.  
  691.       Taiwan:
  692.          ftp://ftp.edu.tw/Chinese/ifcss/software/fonts/
  693.          ftp://ftp.ntu.edu.tw/Chinese/ifcss/software/fonts/
  694.  
  695.       Hong Kong:
  696.          ftp://ftp.cuhk.hk/pub/chinese/ifcss/software/fonts/
  697.  
  698.       Singapore:
  699.          ftp://ftp.technet.sg:/pub/chinese/fonts/
  700.  
  701.       US:
  702.          ftp://ftp.ifcss.org/pub/software/fonts/
  703.          http://ccic.ifcss.org/www/pub/software/fonts/
  704.  
  705. 6.   X.400 Considerations
  706.  
  707.    X.400 has the ability of carrying different character sets in a
  708.    message by using the body part "GeneralText" defined by
  709.    ISO/IEC-10021-7 [ISO-10021].
  710.  
  711.    The X.400 ASN.1 definition of the GeneralText body part is:
  712.  
  713.     general-text-body-part EXTENDED-BODY-PART-TYPE
  714.       PARAMETERS GeneralTextParameters IDENTIFIED BY id-ep-general-text
  715.       DATA       GeneralTextData
  716.       ::= id-et-general-text
  717.  
  718.     GeneralTextParameters ::= SET OF CharacterSetRegistration
  719.  
  720.     CharacterSetRegistration ::= INTEGER (1..32767)
  721.  
  722.     GeneralTextData ::= GeneralString
  723.  
  724.    Therefore, to use ISO-2022-CN, set the "CharacterSetRegistration"
  725.    part as { 6 58 171 172 }, and add an ESC sequence of ESC ( B (three
  726.    bytes, hexadecimal values: 1B 28 42) before the beginning of each
  727.  
  728.  
  729.  
  730. Zhu, et al                   Informational                     [Page 13]
  731.  
  732. RFC 1922               Chinese Character Encoding             March 1996
  733.  
  734.  
  735.    line of ISO-2022-CN text.
  736.  
  737.    Similarly, to use ISO-2022-CN-EXT, set the registered numbers of all
  738.    character sets in the "CharacterSetRegistration" part and add ESC ( B
  739.    at the beginning of each line.  For the registered numbers, please
  740.    refer to ISO registry.  In addition to the character sets supported
  741.    by ISO-2022-CN, currently registered numbers are:
  742.  
  743.       ISO IR 165 (GB 2312+GB 8565.2):   165
  744.       CNS 11643-plane 3:                183
  745.       CNS 11643-plane 4:                184
  746.       CNS 11643-plane 5:                185
  747.       CNS 11643-plane 6:                186
  748.       CNS 11643-plane 7:                187
  749.  
  750.    176 is the registered number for the BASESET of ISO/IEC 10646-1:1993
  751.    UCS-2 with implementation level 3, Escape sequence of ESC % / E (four
  752.    bytes, hexadecimal values 1B 25 2F 45) indicates starting of this
  753.    codeset.
  754.  
  755.    For CN-GB and CN-Big5 character sets, there are no formal methods
  756.    that could be used in X.400 yet.
  757.  
  758.    For detail about X.400 use of character sets, please refer to RFC
  759.    1502 [RFC-1502].
  760.  
  761.  
  762.  
  763.  
  764.  
  765.  
  766.  
  767.  
  768.  
  769.  
  770.  
  771.  
  772.  
  773.  
  774.  
  775.  
  776.  
  777.  
  778.  
  779.  
  780.  
  781.  
  782.  
  783.  
  784.  
  785.  
  786. Zhu, et al                   Informational                     [Page 14]
  787.  
  788. RFC 1922               Chinese Character Encoding             March 1996
  789.  
  790.  
  791. 7.   Formal Syntax of ISO-2022-CN and ISO-2022-CN-EXT
  792.  
  793.    The notational conventions used here are identical to those used in
  794.    RFC 822.
  795.  
  796. 7.1.  Formal Syntax of ISO-2022-CN
  797.  
  798.    body  ::= * ( ascii_line / c_line )
  799.  
  800.    ascii_line  ::= *char CRLF
  801.  
  802.    c_line ::= *char 1*(1*designation 1*(*char 1*c_text *char)) CRLF
  803.  
  804.    designation  ::= SOdesignation / SS2designation
  805.  
  806.    SOdesignation  ::= ESC "$" ")" finalchar_for_SO
  807.  
  808.    SS2designation  ::= ESC "$" "*" finalchar_for_SS2
  809.  
  810.    finalchar_for_SO  ::= "A" / "G"
  811.  
  812.    finalchar_for_SS2  ::= "H"
  813.  
  814.    c_text  ::= 1* ( SO-SI-segment / SS2segment )
  815.  
  816.    SO-SI-segment ::= SO 1*c_char *designation *c_segment SI
  817.  
  818.    c_segment  ::= 1* ( c_char / SS2segment )
  819.  
  820.    SS2segment  ::= SS2 c_char
  821.  
  822.    c_char  ::= one_of_94  one_of_94
  823.  
  824.                                                    ; ( Octal, Decimal.)
  825.  
  826.    ESC             ::= <ISO-646 ESC, escape>       ; ( 33, 27.)
  827.  
  828.    SI              ::= <ASCII SI, shift in>        ; ( 17, 15.)
  829.  
  830.    SO              ::= <ASCII SO, shift out>       ; ( 16, 14.)
  831.  
  832.    SS2             ::= <ISO 2022 Single_shift two> ; ( 33 116, 27 78.)
  833.  
  834.    one_of_94       ::= <any char in 94_char set>   ; ( 41-176, 33-126. )
  835.  
  836.    char            ::= <any char in 96_char_set>   ; ( 40-177, 30-127. )
  837.  
  838.  
  839.  
  840.  
  841.  
  842. Zhu, et al                   Informational                     [Page 15]
  843.  
  844. RFC 1922               Chinese Character Encoding             March 1996
  845.  
  846.  
  847. 7.2.  Formal Syntax of ISO-2022-CN-EXT
  848.  
  849.    body  ::= * ( ascii_line / c_line )
  850.  
  851.    ascii_line  ::= *char CRLF
  852.  
  853.    c_line ::= *char 1*(1*designation 1*(*char 1*c_text *char)) CRLF
  854.  
  855.    designation  ::= SOdesignation / SS2designation / SS3designation
  856.  
  857.    SOdesignation  ::= ESC "$" ")" finalchar_for_SO
  858.  
  859.    SS2designation  ::= ESC "$" "*" finalchar_for_SS2
  860.  
  861.    SS3designation  ::= ESC "$" "+" finalchar_for_SS3
  862.  
  863.    finalchar_for_SO  ::= "A" / <X12345> / "G" / "E"
  864.  
  865.    finalchar_for_SS2  ::= <X7589> / <X13131> / "H"
  866.  
  867.    finalchar_for_SS3  ::= <X7590> / <X13132> / "I" / "J" / "K" / "L"
  868.                           / "M"
  869.  
  870.    c_text  ::= 1* ( SO-SI-segment / SS2segment / SS3segment )
  871.  
  872.    SO-SI-segment ::= SO 1*c_char *designation *c_segment SI
  873.  
  874.    c_segment  ::= 1* ( c_char / SS2segment / SS3segment )
  875.  
  876.    SS2segment  ::= SS2 c_char
  877.  
  878.    SS3segment  ::= SS3 c_char
  879.  
  880.    c_char  ::= one_of_94  one_of_94
  881.  
  882.                                                     ; ( Octal, Decimal.)
  883.  
  884.    ESC             ::= <ISO-646 ESC, escape>        ; ( 33, 27.)
  885.  
  886.    SI              ::= <ASCII SI, shift in>         ; ( 17, 15.)
  887.  
  888.    SO              ::= <ASCII SO, shift out>        ; ( 16, 14.)
  889.  
  890.    SS2             ::= <ISO 2022 Single_shift two>  ; ( 33 116, 27 78.)
  891.  
  892.    SS3             ::= <ISO 2022 Single_shift three>; ( 33 117, 27 79.)
  893.  
  894.    one_of_94       ::= <any char in 94_char set>    ; ( 41-176, 33-126.
  895.  
  896.  
  897.  
  898. Zhu, et al                   Informational                     [Page 16]
  899.  
  900. RFC 1922               Chinese Character Encoding             March 1996
  901.  
  902.  
  903.    )
  904.  
  905.    char            ::= <any char in 96_char_set>    ; ( 40-177, 30-127.
  906.    )
  907.  
  908.  
  909. 8.    Registration of New "charset"s and New MIME parameter
  910.  
  911. 8.1.  This document defines the following MIME "charset" names for
  912.       Chinese text:
  913.  
  914.       ISO-2022-CN, ISO-2022-CN-EXT
  915.       CN-GB, CN-Big5
  916.       CN-GB-12345
  917.       CN-GB-ISOIR165
  918.  
  919. 8.2.  This document defines two new MIME parameters:
  920.  
  921.       charset-edition
  922.       charset-extension
  923.  
  924. Acknowledgments
  925.  
  926.    This document is the result of cooperation in APNG-CC, the Chinese
  927.    Character sub-working group of the I18N/L10N (Internationalization
  928.    and Localization) working group of APNG (Asia-Pacific Networking
  929.    Group), coordinator Zhu Haifeng <zhf@net.tsinghua.edu.cn>.  The
  930.    membership of APNG-CC consists of individuals from both sides of the
  931.    Taiwan Strait, HongKong, and from Singapore and other countries.  We
  932.    wish to thank all members of APNG-CC.
  933.  
  934.    Prof. Yao Shiquan (Deputy chair of CITS--China Information Technology
  935.    Standardization Technical Committee), Ms. Lin Ning (Secretary-General
  936.    of CITS), Mr. Guo Chengzhong of the Office of the Joint Conference of
  937.    China Economic Information,  and Prof. Zhao Jingrong, Prof. Wu
  938.    Jianping, Prof. Li Xing, and Mr. You Yue (Tsinghua University) and
  939.    other experts from CERNET Expert Committee, Prof. Meng Qingyu (China
  940.    Computer Software & Technology Services Corporation), Prof. Cao
  941.    Jinwen and Mr. Yu Jun (IBM Beijing) gave a lot of support and help in
  942.    many aspects.
  943.  
  944.    Special thanks for the supports towards APNG-CC from Prof. Yang
  945.    Tianxing (Chair of CITS).
  946.  
  947.    Prof. Ding ZyKaan from Academia Sinica of Taiwan, and Mr. C. J.
  948.    Cherng and Mr. C. K. Fan of III (Institute for Information Industry),
  949.    Mr. Chang JingShin from Tsinghua University in Hsinchu of Taiwan, Ms.
  950.    C. C. Hsu from IBM Taiwan and  Ms. Tong-Lee Anita Lin from Microsoft
  951.  
  952.  
  953.  
  954. Zhu, et al                   Informational                     [Page 17]
  955.  
  956. RFC 1922               Chinese Character Encoding             March 1996
  957.  
  958.  
  959.    Taiwan gave a lot of support and contributions in APNG-CC's work.  In
  960.    particular, Ms. C. C. Hsu put much effort towards completing the
  961.    Appendix of this document.
  962.  
  963.    We also wish to thank the following people who contributed in many
  964.    ways towards this document.
  965.  
  966.       Zhang Zhoucai              Martin J. Duerst
  967.       Zhang Ling                 Kenichi Handa
  968.       Zhu Bin                    Lu Chin
  969.       Sun Yufang                 Nelson Chin
  970.       Chen Shuyi                 Mao Yonggang
  971.       Masataka Ohta              Ken Lunde
  972.       Lua Kim Teng               Victor Cheng
  973.       Stephen G. Simpson         Yuan Jiang
  974.       Liu Huifang                Harald T. Alvestrand
  975.       Qian Hualin                Jiang Lin
  976.       Lu Ming                    Emily Hsu
  977.       Wu Jian                    Zhu Shuang
  978.       Zheng Long                 Zhang Hailin
  979.       Yonggang Zhang             Feng Hui
  980.       Yao Jian
  981.  
  982. Security Considerations
  983.  
  984.    Security issues are not discussed in this memo.
  985.  
  986. Authors' Addresses
  987.  
  988.    Zhu Haifeng  (HF. Zhu)
  989.    216 Central Main Building
  990.    Tsinghua University
  991.    Beijing, 100084
  992.    China
  993.  
  994.    Tel: +86-10-2561144 ext. 3492
  995.    Fax: +86-10-2564173
  996.    EMail: zhf@net.tsinghua.edu.cn, zhf@net.edu.cn
  997.  
  998.  
  999.  
  1000.  
  1001.  
  1002.  
  1003.  
  1004.  
  1005.  
  1006.  
  1007.  
  1008.  
  1009.  
  1010. Zhu, et al                   Informational                     [Page 18]
  1011.  
  1012. RFC 1922               Chinese Character Encoding             March 1996
  1013.  
  1014.  
  1015.    Hu Daoyuan  (DY. Hu)
  1016.    Tsinghua Networking Center
  1017.    Tsinghua University
  1018.    Beijing, 100084
  1019.    China
  1020.  
  1021.    Tel: +86-10-2594016
  1022.    Fax: +86-10-2564173
  1023.    EMail: hdy@tsinghua.edu.cn
  1024.  
  1025.  
  1026.    Wang Zhiguan  (ZG. Wang)
  1027.    Beijing 1101 MailBox
  1028.    SubCommitte 2 (SC2)
  1029.    China Information Technology Standardization Technical Committee
  1030.    (CITS)
  1031.    Beijing, 100007
  1032.    China
  1033.  
  1034.    Tel: +86-10-4012392
  1035.    Fax: +86-10-4010601
  1036.  
  1037.  
  1038.    Kao Tien-cheu (TC. Kao)
  1039.    I.T. Promotion Division
  1040.    Institute for Information Industry (III)
  1041.    Taipei
  1042.    Taiwan
  1043.  
  1044.    Tel: +886-2-5631688
  1045.    Fax: +886-2-563-4209
  1046.    EMail: tckao@iiidns.iii.org.tw
  1047.  
  1048.  
  1049.    Chang Wen-chung  (WCH. Chang)
  1050.    Institute for Information Industry (III)
  1051.    Taipei
  1052.    Taiwan
  1053.  
  1054.    Tel: +886-2-7327771
  1055.    Fax: +886-2-7370188
  1056.    EMail: chung@iiidns.iii.org.tw
  1057.  
  1058.  
  1059.  
  1060.  
  1061.  
  1062.  
  1063.  
  1064.  
  1065.  
  1066. Zhu, et al                   Informational                     [Page 19]
  1067.  
  1068. RFC 1922               Chinese Character Encoding             March 1996
  1069.  
  1070.  
  1071.    Mark R. Crispin
  1072.    Networks and Distributed Computing
  1073.    University of Washington
  1074.    4545 15th Avenue NE
  1075.    Seattle, WA  98105-4527
  1076.    USA
  1077.  
  1078.    Tel: +1 (206) 543-5762
  1079.    Fax: +1 (206) 685-4045
  1080.    EMail: MRC@CAC.Washington.EDU
  1081.  
  1082.  
  1083.  
  1084.  
  1085.  
  1086.  
  1087.  
  1088.  
  1089.  
  1090.  
  1091.  
  1092.  
  1093.  
  1094.  
  1095.  
  1096.  
  1097.  
  1098.  
  1099.  
  1100.  
  1101.  
  1102.  
  1103.  
  1104.  
  1105.  
  1106.  
  1107.  
  1108.  
  1109.  
  1110.  
  1111.  
  1112.  
  1113.  
  1114.  
  1115.  
  1116.  
  1117.  
  1118.  
  1119.  
  1120.  
  1121.  
  1122. Zhu, et al                   Informational                     [Page 20]
  1123.  
  1124. RFC 1922               Chinese Character Encoding             March 1996
  1125.  
  1126.  
  1127. Appendix -- Conversion Table for ISO-2022-CN (EXT) and Big5
  1128.  
  1129.    This is a conversion table for the Chinese characters in Big5's
  1130.    common part and ISO-2022-CN/-EXT, including all the vendor-specific
  1131.    characters from Eten, Microsoft and IBM.  For conversion source and
  1132.    binary programs for Big5, III provides good on-line services (ftp
  1133.    site listed in section 1.4), and [CJKINF] is also a good reference.
  1134.  
  1135. A.1.  Big5 (ETen, IBM, and Microsoft version) symbol set correspondence
  1136.       to CNS 11643 Plane 1:
  1137.  
  1138.       0xA140-0xA1F5 <-> 0x2121-0x2256
  1139.              0xA1F6 <-> 0x2258
  1140.              0xA1F7 <-> 0x2257
  1141.       0xA1F8-0xA2AE <-> 0x2259-0x234E
  1142.       0xA2AF-0xA3BF <-> 0x2421-0x2570
  1143.       0xA3C0-0xA3E0 <-> 0x4221-0x4241 (ETen and Microsoft
  1144.                                        defined as reserved area)
  1145.  
  1146. A.2.  Big5 (ETen, IBM, and Microsoft version) Level 1 correspondence to
  1147.       CNS 11643-1992 Plane 1:
  1148.  
  1149.       0xA440-0xACFD <-> 0x4421-0x5322
  1150.              0xACFE <-> 0x5753
  1151.       0xAD40-0xAFCF <-> 0x5323-0x5752
  1152.       0xAFD0-0xBBC7 <-> 0x5754-0x6B4F
  1153.       0xBBC8-0xBE51 <-> 0x6B51-0x6F5B
  1154.              0xBE52 <-> 0x6B50
  1155.       0xBE53-0xC1AA <-> 0x6F5C-0x7534
  1156.       0xC1AB-0xC2CA <-> 0x7536-0x7736
  1157.              0xC2CB <-> 0x7535
  1158.       0xC2CC-0xC360 <-> 0x7737-0x782C
  1159.       0xC361-0xC3B8 <-> 0x782E-0x7863
  1160.              0xC3B9 <-> 0x7865
  1161.              0xC3BA <-> 0x7864
  1162.       0xC3BB-0xC455 <-> 0x7866-0x7961
  1163.              0xC456 <-> 0x782D
  1164.       0xC457-0xC67E <-> 0x7962-0x7D4B
  1165.  
  1166. A.3.  Big5 (ETen, IBM, and Microsoft version) Level 2 correspondence to
  1167.       CNS 11643-1992 Plane 2:
  1168.  
  1169.       0xC940-0xC949 <-> 0x2121-0x212A
  1170.              0xC94A <-> 0x4442       # duplicate of Level 1's 0xA461
  1171.       0xC94B-0xC96B <-> 0x212B-0x214B
  1172.       0xC96C-0xC9BD <-> 0x214D-0x217C
  1173.              0xC9BE <-> 0x214C
  1174.       0xC9BF-0xC9EC <-> 0x217D-0x224C
  1175.  
  1176.  
  1177.  
  1178. Zhu, et al                   Informational                     [Page 21]
  1179.  
  1180. RFC 1922               Chinese Character Encoding             March 1996
  1181.  
  1182.  
  1183.       0xC9ED-0xCAF6 <-> 0x224E-0x2438
  1184.              0xCAF7 <-> 0x224D
  1185.       0xCAF8-0xD779 <-> 0x2439-0x387D
  1186.              0xD77A <-> 0x3F6A
  1187.       0xD77B-0xDBA6 <-> 0x387E-0x3F69
  1188.       0xDBA7-0xDDFB <-> 0x3F6B-0x4423
  1189.              0xDDFC <-> 0x4176         # duplicate of 0xDCD1
  1190.       0xDDFD-0xE8A2 <-> 0x4424-0x554A
  1191.       0xE8A3-0xE975 <-> 0x554C-0x5721
  1192.       0xE976-0xEB5A <-> 0x5723-0x5A27
  1193.       0xEB5B-0xEBF0 <-> 0x5A29-0x5B3E
  1194.              0xEBF1 <-> 0x554B
  1195.       0xEBF2-0xECDD <-> 0x5B3F-0x5C69
  1196.              0xECDE <-> 0x5722
  1197.       0xECDF-0xEDA9 <-> 0x5C6A-0x5D73
  1198.       0xEDAA-0xEEEA <-> 0x5D75-0x6038
  1199.              0xEEEB <-> 0x642F
  1200.       0xEEEC-0xF055 <-> 0x6039-0x6242
  1201.              0xF056 <-> 0x5D74
  1202.       0xF057-0xF0CA <-> 0x6243-0x6336
  1203.              0xF0CB <-> 0x5A28
  1204.       0xF0CC-0xF162 <-> 0x6337-0x642E
  1205.       0xF163-0xF16A <-> 0x6430-0x6437
  1206.              0xF16B <-> 0x6761
  1207.       0xF16C-0xF267 <-> 0x6438-0x6572
  1208.              0xF268 <-> 0x6934
  1209.       0xF269-0xF2C2 <-> 0x6573-0x664C
  1210.       0xF2C3-0xF374 <-> 0x664E-0x6760
  1211.       0xF375-0xF465 <-> 0x6762-0x6933
  1212.       0xF466-0xF4B4 <-> 0x6935-0x6961
  1213.              0xF4B5 <-> 0x664D
  1214.       0xF4B6-0xF4FC <-> 0x6962-0x6A4A
  1215.       0xF4FD-0xF662 <-> 0x6A4C-0x6C51
  1216.              0xF663 <-> 0x6A4B
  1217.       0xF664-0xF976 <-> 0x6C52-0x7165
  1218.       0xF977-0xF9C3 <-> 0x7167-0x7233
  1219.              0xF9C4 <-> 0x7166
  1220.              0xF9C5 <-> 0x7234
  1221.              0xF9C6 <-> 0x7240
  1222.       0xF9C7-0xF9D1 <-> 0x7235-0x723F
  1223.       0xF9D2-0xF9D5 <-> 0x7241-0x7244
  1224.  
  1225.  
  1226. A.4.  Big5 (ETen and IBM Version) specific numeric symbols
  1227.       correspondence to CNS 11643 Plane 1: (Microsoft version defined
  1228.       this area as UDC - User Defined Character)
  1229.  
  1230.  
  1231.  
  1232.  
  1233.  
  1234. Zhu, et al                   Informational                     [Page 22]
  1235.  
  1236. RFC 1922               Chinese Character Encoding             March 1996
  1237.  
  1238.  
  1239.       0xC6A1-0xC6BE <-> 0x2621 - 0x263E
  1240.  
  1241. A.5.  Big5 (ETen and IBM Version) specific KangXi radicals
  1242.       correspondence to CNS 11643 Plane 1: (Microsoft version defined as
  1243.       UDC - User Definable Character)
  1244.  
  1245.              0xC6BF <-> 0x2723
  1246.              0xC6C0 <-> 0x2724
  1247.              0xC6C1 <-> 0x2726
  1248.              0xC6C2 <-> 0x2728
  1249.              0xC6C3 <-> 0x272D
  1250.              0xC6C4 <-> 0x272E
  1251.              0xC6C5 <-> 0x272F
  1252.              0xC6C6 <-> 0x2734
  1253.              0xC6C7 <-> 0x2737
  1254.              0xC6C8 <-> 0x273A
  1255.              0xC6C9 <-> 0x273C
  1256.              0xC6CA <-> 0x2742
  1257.              0xC6CB <-> 0x2747
  1258.              0xC6CC <-> 0x274E
  1259.              0xC6CD <-> 0x2753
  1260.              0xC6CE <-> 0x2754
  1261.              0xC6CF <-> 0x2755
  1262.              0xC6D0 <-> 0x2759
  1263.              0xC6D1 <-> 0x275A
  1264.              0xC6D2 <-> 0x2761
  1265.              0xC6D3 <-> 0x2766
  1266.              0xC6D4 <-> 0x2829
  1267.              0xC6D5 <-> 0x282A
  1268.              0xC6D6 <-> 0x2863
  1269.              0xC6D7 <-> 0x286C
  1270.  
  1271. A.6.  Big5 (ETen and Microsoft version) specific Ideographs
  1272.       correspondence to CNS 11643 Plane 3: (IBM version defined as UDC)
  1273.  
  1274.              0xF9D6 <-> 0x4337
  1275.              0xF9D7 <-> 0x4F50
  1276.              0xF9D8 <-> 0x444E
  1277.              0xF9D9 <-> 0x504A
  1278.              0xF9DA <-> 0x2C5D
  1279.              0xF9DB <-> 0x3D7E
  1280.              0xF9DC <-> 0x4B5C
  1281.  
  1282.  
  1283. A.7.  Big5 (ETen version only) specific symbols correspondence to CNS
  1284.       11643 Plane 4:
  1285.  
  1286.              0xC879 <-> 0x2123
  1287.  
  1288.  
  1289.  
  1290. Zhu, et al                   Informational                     [Page 23]
  1291.  
  1292. RFC 1922               Chinese Character Encoding             March 1996
  1293.  
  1294.  
  1295.              0xC87B <-> 0x2124
  1296.              0xC87D <-> 0x212A
  1297.              0xC8A2 <-> 0x2152
  1298.  
  1299. A.8.  Other Big5 specific symbols which cannot mapping to CNS 11643:
  1300.  
  1301.       0xC6D8-0xC878 <-> none  (ETen and IBM Version)
  1302.              0xC87A <-> none  (ETen version only)
  1303.              0xC87C <-> none  (ETen version only)
  1304.       0xC87E-0xC8A1 <-> none  (ETen version only)
  1305.       0xC8A3-0xC8CC <-> none  (ETen version only)
  1306.       0xC8CD-0xC8D3 <-> none  (ETen and IBM version)
  1307.       0xF9DD-0xF9FE <-> none  (ETen and Microsoft version)
  1308.  
  1309.       Note: However, most of them can be mapped to GB-2312 too.  For
  1310.       example, Big5(ETen and IBM version) Hiragana, Katakana, and
  1311.       Cyrillic symbols correspondence to GB-2312:
  1312.  
  1313.       0xC6E7-0xC77A <-> 0x2421-0x2473  # Japanese Hiragana
  1314.       0xC77B-0xC7F2 <-> 0x2521-0x2576  # Japanese Katakana
  1315.       0xC7F3-0xC854 <-> 0xA7A1-0xA7C1  # Cyrillic uppercase
  1316.       0xC855-0xC875 <-> 0xA7D1-0xA7F1  # Cyrillic lowercase
  1317.  
  1318.    Please notice that there are also many symbols that could be
  1319.    supported by GB-2312, for detail, please refer to the ftp sites in
  1320.    section 1.4 of the "Specification" part of this document.
  1321.  
  1322.  
  1323.  
  1324.  
  1325.  
  1326.  
  1327.  
  1328.  
  1329.  
  1330.  
  1331.  
  1332.  
  1333.  
  1334.  
  1335.  
  1336.  
  1337.  
  1338.  
  1339.  
  1340.  
  1341.  
  1342.  
  1343.  
  1344.  
  1345.  
  1346. Zhu, et al                   Informational                     [Page 24]
  1347.  
  1348. RFC 1922               Chinese Character Encoding             March 1996
  1349.  
  1350.  
  1351. References
  1352.  
  1353.    [ASCII] American National Standards Institute, "Coded character set:
  1354.    7-bit American National Standard Code for Information Interchange",
  1355.    ANSI X3.4-1986.
  1356.  
  1357.    [BIG5] Institute for Information Industry, "Chinese Coded Character
  1358.    Set in Computer ", March, 1984
  1359.  
  1360.    [CJKINF] Ken Lunde, On-line documentation of Chinese/Japanese/Korean
  1361.    Information Processing, 1995, available at:
  1362.    ftp://ftp.ora.com/pub/examples/nutshell/ujip/doc/cjk.inf
  1363.  
  1364.    [CNS-5205] "Information processing: 7-Bit Coded Character Set For
  1365.    Information Interchange", CNS-5205.
  1366.  
  1367.    [CNS-11643] "Chinese Standard Interchange Code", CNS-11643 version
  1368.    1992; "Standard Interchange Code for Generally-Used Chinese
  1369.    Characters", CNS 11643 version 1986.
  1370.  
  1371.    [GB-1988] "7-bit Coding Character Set for Information Interchange",
  1372.    GB 1988-89.
  1373.  
  1374.    [GB-2312] "Coding of Chinese Ideogram Set for Information Interchange
  1375.    Basic Set", GB 2312-80.
  1376.  
  1377.    [GB-7589] "Code of Chinese Ideograms Set for Information Interchange,
  1378.    the 2nd Supplementary Set", UDC 681.3.048, GB 7589-87.
  1379.  
  1380.    [GB-7590] "Code of Chinese Ideogram Set for Information Interchange,
  1381.    the 4th Supplementary Set", UDC 681.3.048, GB 7590-87.
  1382.  
  1383.    [GB-8565] "Information Processing Coded Character Sets for Text
  1384.    Communication", UDC 681.3, GB 8565-88.
  1385.  
  1386.    [GB-12345] "Code of Chinese Ideogram Set for Information Interchange
  1387.    Supplementary Set", GB/T 12345-90.
  1388.  
  1389.    [GB-13000]  "Information Technology: Universal Multiple-Octet Coded
  1390.    Character Set(UCS) Part 1: Architecture and Basic Multilingual
  1391.    Plane", GB13000.1
  1392.  
  1393.    [GB-13131] "Code of Chinese Ideogram Set for Information Interchange,
  1394.    the 3rd Supplementary Set", GB 13131-91.
  1395.  
  1396.    [GB-13132] "Code of Chinese Ideogram Set for Information Interchange,
  1397.    the 5th Supplementary Set", GB 13132-91.
  1398.  
  1399.  
  1400.  
  1401.  
  1402. Zhu, et al                   Informational                     [Page 25]
  1403.  
  1404. RFC 1922               Chinese Character Encoding             March 1996
  1405.  
  1406.  
  1407.    [ISO-646] International Organization for Standardization (ISO),
  1408.    "Information Technology: ISO 7-bit Coded Character Set for
  1409.    Information Interchange", International Standard, Ref. No. ISO/IEC
  1410.    646:1991.
  1411.  
  1412.    [ISO-2022] International Organization for Standardization (ISO),
  1413.    "Information Processing: ISO 7-bit and 8-bit coded character sets:
  1414.    Code extension techniques", International Standard, Ref. No. ISO
  1415.    2022-1986 (E).
  1416.  
  1417.    [ISO-10021] Information Technology: Text communication:
  1418.    Message-Oriented Text Interchange Systems (MOTIS), ISO 10021, October
  1419.    1988.
  1420.  
  1421.    [ISO-10646] ISO/IEC 10646-1:1993(E) Information Technology: Universal
  1422.    Multiple-octet Coded Character Set (UCS) Part 1: Architecture and
  1423.    Basic Multilingual Plane"
  1424.  
  1425.    [ISOREG] International Organization for Standardization (ISO),
  1426.    "International Register of Coded Character Sets To Be Used With
  1427.    Escape Sequences".
  1428.  
  1429.    [MIME-1] Borenstein, N., and Freed, N., "MIME (Multipurpose Internet
  1430.    Mail Extensions) Part One: Mechanisms for Specifying and Describing
  1431.    the Format of Internet Message Bodies", RFC 1521, Bellcore, Innosoft,
  1432.    September 1993.
  1433.  
  1434.    [MIME-2] Moore, K., "MIME (Multipurpose Internet Mail Extensions)
  1435.    Part Two: Message Header Extensions for Non-ASCII Text", RFC 1522,
  1436.    University of Tennessee, September 1993.
  1437.  
  1438.    [RFC-822] Crocker, D., "Standard for the Format of ARPA Internet Text
  1439.    Messages", STD 11, RFC 822, University of Delaware, August 1982.
  1440.  
  1441.    [RFC-854] Postel, J., Reynolds J., Telnet Protocol Specification, RFC
  1442.    854, ISI, May 1983.
  1443.  
  1444.    [RFC-1036] Horton, M., and Adams, R., "Standard for Interchange of
  1445.    USENET Messages", RFC 1036, AT&T Bell Laboratories, Center for
  1446.    Seismic Studies, December 1987.
  1447.  
  1448.    [RFC-1468] Murai J., Crispin, M., and van der Poel, E., Japanese
  1449.    Character Encoding for Internet Messages, June 1993.
  1450.  
  1451.    [RFC-1557] Choi U., Chon K., and Park H., Korean Character Encoding
  1452.    for Internet Messages, December 1993.
  1453.  
  1454.  
  1455.  
  1456.  
  1457.  
  1458. Zhu, et al                   Informational                     [Page 26]
  1459.  
  1460. RFC 1922               Chinese Character Encoding             March 1996
  1461.  
  1462.  
  1463.    [RFC-1641] Goldsmith D., and Davis M., "Using Unicode with MIME", RFC
  1464.    1641, Taligent Inc., July 1994
  1465.  
  1466.    [RFC-1642] Goldsmith D., and Davis M.," UTF-7, A Mail-Safe
  1467.    Transformation Format of Unicode", July 1994
  1468.  
  1469.    [RFC-1700] Reynolds J., and Postel J., "Assigned Numbers",RFC 1700,
  1470.    STD 2, ISI, October 1994
  1471.  
  1472.    [SMTP] Postel, J. B. "Simple Mail Transfer Protocol", STD 10, RFC
  1473.    821, USC/Information Sciences Institute, August 1982.
  1474.  
  1475.    [SMTPEXT] Klensin J., Freed N., Rose M., Stefferud E., and Crocker
  1476.    D., "SMTP Service Extensions", RFC 1651, July 1994.
  1477.  
  1478.    [Unicode 1.1] "The Unicode Standard, Version 1.1", Addison-Wesley,
  1479.    Reading, MA (to be published; the contents of this standard is
  1480.    currently available by combining [Unicode92], [Unicode93], and
  1481.    [Unicode4]).
  1482.  
  1483.    [Unicode92] The Unicode Consortium, "The Unicode Standard: Worldwide
  1484.    Character Encoding: Version 1.0", Volume 1, Addison-Wesley, Reading,
  1485.    MA, 1992 (ISBN 0-201-56788-1).
  1486.  
  1487.    [Unicode93] The Unicode Consortium, "The Unicode Standard: Worldwide
  1488.    Character Encoding: Version 1.0", Volume 2, Addison-Wesley, Reading,
  1489.    MA, 1992 (ISBN 0-201-60845-6).
  1490.  
  1491.    [Unicode4] The Unicode Consortium, "The Unicode Standard: Version 1.1
  1492.    (Prepublication Edition)", Unicode Technical Report #4 (avaliable
  1493.    from the Unicode Consortium).
  1494.  
  1495.  
  1496.  
  1497.  
  1498.  
  1499.  
  1500.  
  1501.  
  1502.  
  1503.  
  1504.  
  1505.  
  1506.  
  1507.  
  1508.  
  1509.  
  1510.  
  1511.  
  1512.  
  1513.  
  1514. Zhu, et al                   Informational                     [Page 27]
  1515.  
  1516.